2. 大模型训练的三个阶段
大模型(LLM)的训练流程通常可以分为三个核心阶段:
- Pre-training(预训练)
- Mid-training(中训练 / 持续训练)
- Post-training(后训练)
这三个阶段分别负责:
- 学习世界知识
- 强化特定领域能力
- 调整模型行为与交互能力
1. Pre-training(预训练)
什么是预训练
预训练(Pre-training)是大模型最核心、成本最高的阶段。
其本质是:
让模型不断预测“下一个词(Next Token)是什么”。
例如:
输入:
“天空的颜色通常是”
模型需要预测:
“蓝色”
经过海量训练后,模型会学习到:
- “蓝色”出现概率最高
- “红色”“粉色”等概率较低
模型并不是真正“理解”天空,而是通过统计规律学习语言与知识。
预训练学习到什么
通过大规模数据训练,模型会逐渐学会:
- 语言规律
- 世界知识
- 基础推理
- 代码能力
- 文本生成
- 多语言能力
训练数据通常包括:
- 网页
- 书籍
- 论文
- 代码
- 对话数据
预训练的特点
优点
- 学习通用知识
- 获得基础智能
- 泛化能力强
缺点
- 不懂人类偏好
- 不会按照指令工作
- 回答风格不稳定
- 不具备助手能力
因此:
预训练后的模型,更像“知识压缩器”,而不是“AI助手”。
2. Mid-training(中训练 / 持续训练)
什么是中训练
中训练(Mid-training)也叫:
- Continued Pretraining(持续预训练)
- Domain Adaptation(领域适配)
它本质上仍然是:
继续预测下一个词。
但和预训练不同的是:
中训练会使用更高质量、更有针对性的数据。
为什么需要中训练
因为预训练数据虽然庞大,但通常比较“杂”。
例如:
- 数据质量参差不齐
- 某些领域数据不足
- 新知识可能不存在
因此需要继续训练模型。
中训练可以做什么
(1)学习新语言
例如:
- 增强中文能力
- 学习日语
- 学习专业术语
(2)学习新模态
让模型支持:
- 图片(Vision)
- 音频(Audio)
- 视频(Video)
例如:
- GPT-4o
- Gemini
- Qwen-VL
本质上都是在持续训练阶段加入多模态数据。
(3)增强领域能力
例如:
- 医疗
- 法律
- 金融
- 编程
通过高质量专业数据提升模型能力。
(4)扩展上下文长度(Long Context)
例如:
从:
- 4K Context
扩展到:
- 32K
- 128K
- 1M Context
让模型能阅读更长内容。
中训练的本质
可以理解为:
在“通识教育”之后进行“专项强化训练”。
3. Post-training(后训练)
后训练(Post-training)是目前大模型最关键的能力塑造阶段。
它解决的问题是:
“模型如何与人类协作”。
4. 后训练的核心方法
(1)Fine-tuning / SFT(监督微调)
SFT(Supervised Fine-Tuning)属于最基础的后训练方法。
其本质是:
给模型提供标准的 Input 和 Output。
例如:
输入
“帮我写一个 Python 快速排序”
输出
def quick_sort(arr):
...
模型通过大量“问答对”学习:
- 如何回答问题
- 如何遵循指令
- 如何形成固定输出风格
SFT 的作用
它会让模型:
- 学会听指令
- 更像聊天助手
- 输出更稳定
- 更符合人类习惯
(2)Reinforcement Learning(强化学习,RL)
强化学习(RL)是在 SFT 之后进一步优化模型行为。
它的核心思想是:
判断模型回答“好不好”。
RL 的训练逻辑
模型会针对同一个问题生成多个答案。
系统会评估:
- 哪个答案更合理
- 哪个更安全
- 哪个更符合人类偏好
然后:
- 奖励好的回答
- 惩罚差的回答
最终让模型逐渐学会:
“什么样的回答更符合人类需求”。
RL 学到的能力
例如:
- 更强推理能力
- 更好的多轮对话
- 更安全的回答
- 更自然的表达
- 更稳定的行为
5. 三个阶段的核心区别
| 阶段 | 核心目标 | 本质 |
|---|---|---|
| Pre-training | 学习世界知识 | 预测下一个词 |
| Mid-training | 强化专项能力 | 在高质量数据上继续预测 |
| Post-training | 学习人类交互与行为 | 学习如何更好回答问题 |
6. 一个形象化理解
预训练(Pre-training)
相当于:
让模型读完整个图书馆,但没有老师指导。
模型会获得大量知识。
中训练(Mid-training)
相当于:
给模型精选高质量专业书籍。
让模型强化某些领域能力。
后训练(Post-training)
相当于:
教模型如何与人交流、如何回答问题、如何遵循规则。
模型开始变得:
- 有礼貌
- 会思考
- 能执行指令
- 更像 AI 助手
7. 一句话总结
预训练:
让模型“有知识”。
中训练:
让模型“更专业”。
后训练:
让模型“更会做人”。